方差与标准差 - 衡量数据分散程度的重要指标
定义:衡量数据分散程度的指标,反映数据与均值的偏离程度。
原始数据公式:\[ \sigma^2 = \frac{\sum x^2}{n} - \left( \frac{\sum x}{n} \right)^2 \]
分组数据公式:\[ \sigma^2 = \frac{\sum fx^2}{\sum f} - \left( \frac{\sum fx}{\sum f} \right)^2 \]
其中 \(f\) 为频率,\(x\) 为数据值或组中值
定义:方差的平方根,单位与原始数据一致。
公式:\[ \sigma = \sqrt{\text{方差}} \]
特点:标准差比方差更直观,因为它与原始数据具有相同的单位。
方差和标准差都是衡量数据分散程度的重要指标,数值越大表示数据越分散,数值越小表示数据越集中。
题目:7名学生的测试分数:3, 4, 6, 2, 8, 8, 5,求方差和标准差。
步骤1:计算基本统计量
• 求和:\(\sum x = 3+4+6+2+8+8+5 = 36\)
• 平方和:\(\sum x^2 = 3^2+4^2+6^2+2^2+8^2+8^2+5^2 = 218\)
• 数据个数:\(n = 7\)
步骤2:计算方差
\(\sigma^2 = \frac{218}{7} - \left( \frac{36}{7} \right)^2 = 31.14 - 26.45 \approx 4.69\)
步骤3:计算标准差
\(\sigma = \sqrt{4.69} \approx 2.17\)
题目:学生午餐外出时长的频率表如下,求标准差。
| 时长\( x \)(分钟) | 35 | 36 | 37 | 38 |
|---|---|---|---|---|
| 频率\( f \) | 3 | 17 | 29 | 34 |
步骤1:计算加权和
\(\sum fx = 3×35 + 17×36 + 29×37 + 34×38 = 105 + 612 + 1073 + 1292 = 3082\)
步骤2:计算加权平方和
\(\sum fx^2 = 3×35^2 + 17×36^2 + 29×37^2 + 34×38^2 = 3675 + 22032 + 39721 + 49076 = 114504\)
步骤3:计算总频率
\(\sum f = 3+17+29+34 = 83\)
步骤4:计算方差
\(\sigma^2 = \frac{114504}{83} - \left( \frac{3082}{83} \right)^2 = 1379.57 - 1378.83 \approx 0.741\)
步骤5:计算标准差
\(\sigma = \sqrt{0.741} \approx 0.861\)(3位有效数字)
题目:Akira的通话时长分组表如下,求标准差的估计值。
| 通话时长\( l \)(分钟) | \( 0 < l \leq 5 \) | \( 5 < l \leq 10 \) | \( 10 < l \leq 15 \) | \( 15 < l \leq 20 \) | \( 20 < l \leq 60 \) | \( 60 < l \leq 70 \) |
|---|---|---|---|---|---|---|
| 频率\( f \) | 4 | 15 | 5 | 2 | 0 | 1 |
步骤1:计算组中值和统计量
| 时长区间 | 组中值\( x \) | 频率\( f \) | \( fx \) | \( fx^2 \) |
|---|---|---|---|---|
| \( 0 < l \leq 5 \) | 2.5 | 4 | 10 | 25 |
| \( 5 < l \leq 10 \) | 7.5 | 15 | 112.5 | 843.75 |
| \( 10 < l \leq 15 \) | 12.5 | 5 | 62.5 | 781.25 |
| \( 15 < l \leq 20 \) | 17.5 | 2 | 35 | 612.5 |
| \( 20 < l \leq 60 \) | 40 | 0 | 0 | 0 |
| \( 60 < l \leq 70 \) | 65 | 1 | 65 | 4225 |
| 总计 | - | 27 | 285 | 6487.5 |
步骤2:计算方差
\(\sigma^2 = \frac{6487.5}{27} - \left( \frac{285}{27} \right)^2 = 240.28 - 111.42 \approx 128.86\)
步骤3:计算标准差
\(\sigma = \sqrt{128.86} \approx 11.4\)(3位有效数字)
柯利犬体重数据
10只柯利犬的体重(kg)汇总数据:\(\sum w = 241\),\(\sum w^2 = 5905\)
求标准差
答题区域:
学生零花钱频率表
学生每周零花钱(OMR)的频率表如下:
| 零花钱(OMR) | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|
| 频率\( f \) | 14 | 8 | 28 | 15 | 20 |
a 求均值和标准差(带单位);b 求零花钱超过均值+1个标准差的学生数
答题区域:
机器零件寿命频率表
机器零件寿命(小时)的频率表如下,制造商声称"90%的零件寿命超过均值-1个标准差",请评价该声明。
| 寿命\( h \)(小时) | \( 5 < h \leq 10 \) | \( 10 < h \leq 15 \) | \( 15 < h \leq 20 \) | \( 20 < h \leq 25 \) | \( 25 < h \leq 30 \) |
|---|---|---|---|---|---|
| 频率\( f \) | 5 | 14 | 23 | 6 | 2 |
答题区域:
解答过程:
• 数据个数:\(n = 10\)
• 均值:\(\bar{w} = \frac{241}{10} = 24.1\) kg
• 方差:\(\sigma^2 = \frac{5905}{10} - (24.1)^2 = 590.5 - 580.81 = 9.69\)
• 标准差:\(\sigma = \sqrt{9.69} \approx 3.11\) kg
a 均值和标准差:
• 加权和:\(\sum fx = 8×14 + 9×8 + 10×28 + 11×15 + 12×20 = 112 + 72 + 280 + 165 + 240 = 869\)
• 加权平方和:\(\sum fx^2 = 8^2×14 + 9^2×8 + 10^2×28 + 11^2×15 + 12^2×20 = 896 + 648 + 2800 + 1815 + 2880 = 9039\)
• 总频率:\(\sum f = 14+8+28+15+20 = 85\)
• 均值:\(\bar{x} = \frac{869}{85} \approx 10.22\) OMR
• 方差:\(\sigma^2 = \frac{9039}{85} - (10.22)^2 = 106.34 - 104.45 \approx 1.89\)
• 标准差:\(\sigma = \sqrt{1.89} \approx 1.375\) OMR
b 超过均值+1个标准差的学生数:
• 均值+标准差 ≈ 10.22 + 1.375 = 11.595 OMR
• 零花钱≥12的学生数为20,故有20名学生
解答过程:
步骤1:计算组中值和统计量
| 寿命区间 | 组中值\( x \) | 频率\( f \) | \( fx \) | \( fx^2 \) |
|---|---|---|---|---|
| \( 5 < h \leq 10 \) | 7.5 | 5 | 37.5 | 281.25 |
| \( 10 < h \leq 15 \) | 12.5 | 14 | 175 | 2187.5 |
| \( 15 < h \leq 20 \) | 17.5 | 23 | 402.5 | 7043.75 |
| \( 20 < h \leq 25 \) | 22.5 | 6 | 135 | 3037.5 |
| \( 25 < h \leq 30 \) | 27.5 | 2 | 55 | 1512.5 |
| 总计 | - | 50 | 805 | 14062.5 |
步骤2:计算均值和标准差
• 均值:\(\bar{h} = \frac{805}{50} = 16.1\) 小时
• 方差:\(\sigma^2 = \frac{14062.5}{50} - (16.1)^2 = 281.25 - 259.21 = 22.04\)
• 标准差:\(\sigma = \sqrt{22.04} \approx 4.70\) 小时
步骤3:验证制造商声明
• 均值-1个标准差 ≈ 16.1 - 4.70 = 11.4 小时
• 寿命超过11.4小时的频率:\(14+23+6+2=45\)
• 占比:\(\frac{45}{50}×100\% = 90\%\)
• 结论:制造商的声明准确